跳到主要内容

CPU 操作之间并非平等

  • 简单运算:1 周期
  • 乘法:1 - 7 周期
  • 除法:10 - 40 周期
  • if 预测正确:1 - 2 周期
  • if 预测错误:10 - 20 周期
  • 函数调用:15 - 60 周期
  • L1, L2, L3 读取:3, 10, 30 - 70 周期
  • 内存读取:100 - 150 周期

常见优化:

  • 边界检查
  • SIMD
  • FMA
  • 函数内联优化